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【摘要 】 大 数据 分 析 和 应 用 涵盖 了 五 个 挑战 , 包括: 计算 基础 设施 、 数 据 管理 实 
践 、 研 究 人 员 偏 好 、 各 种 合作 机 会 和 技术 掩 新 的 成 本 。 本 文 针 对 这 些 问题 提出 了 
一 些 切实 可 行 的 建议 : 〈1) 建 并 开放 的 科学 平台 和 数据 仓库 ， 促 进 数 据 共享 和 
交流 ; 《2) 加 强 跨 学 科 协作 机 制 ， 豆 励 不 同 领域 的 专家 参与 数据 分 析 和 研究 ; 
C3) 制定 明确 的 行为 准则 和 规范 ， 以 确保 数据 质量 和 隐私 保护 ，(4) 利用 云 
计算 技术 和 自动 化 工具 来 提高 数据 处 理 和 分 析 的 效率 ; (5) 投资 大 数据 领域 的 
教育 ， 培 养 更 多 人 才 ， 提 高 整个 行业 的 技术 水 平 。 


【关键 词 】 开 放 科 学 、 开 放 数 据 、 数 据 共享 、 大 数据 分 析 、 大 数据 处 理 、 大 数据 
存储 
【分 类 号 】G250 


The Hot lssue of Big Data: Where Should Data Infrastructure Go? 


Gu Liping®? 
1.Nafional Science Library, Chinese Academy of Sciences 
2.Department of Information Resource, School of Economic and 
Management, University of Chinese Academy of Sciences 


[Abstract] The big data analysis and application, covers five challenges 
including the computing infrgastructure, the data management 
practices, the researcher preferences, the various collaboration 
opportunities and the cost obscured by technology. This article 
proposes some feasible practical| suggestions to address these issues as 
(1) establishing open scientific platforms and doata woarehouses to 
facilitgte data sharing and communication; (2) strengthening 
cross-disciplinary collaboration mechanisms and encouraging experts 
from different fields to participate in data analysis and research; (3) 
developing clear codes of conduct and specifications to ensure data 
quality and privacy protection; (4) vwtilizing cloud computing 
technologies qnd automation tools to improve the efficiency of doata 
processing and analysis; (5) investing in education in the field of big 
data, cultivating more talents, and improving the technical level of the 
entire industry. 
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一 、“ 大 数据 ”落地 的 挑战 

当前 大 数据 分 析 与 应 用 的 热点 问题 ， 就 是 “大 数据 ”怎么 落地 ， 对 此 有 五 个 
难点 ， 分 别 是: 计算 基础 设施 、 数 据 管理 实践 、 科 研 人 员 的 偏好 、 各 种 合作 的 机 
会 以 及 被 技术 所 掩盖 的 成 本 。 以 下 分 别论 述 之 。 


1. 作 为 科研 利器 的 大 数据 

大 数据 是 指 以 往 无 法 处 理 的 大 规模 、 多 元 、 复 杂 、 高 维度 的 数据 ， 其 概念 于 
20 世 纪 90 年 代 中 期 在 企业 界 首 次 提出 ,而 在 学 术 研 究 中 的 应 用 则 始 于 世纪 之 交 。 
在 过 去 十 年 中 , 大 数据 及 其 相关 数据 科学 方法 论 已 成 为 许多 学 术 领 域 中 重要 的 研 
完 方法 之 一 。 随 着 数据 可 用 性 的 增加 ， 大 数据 已 经 成 为 现代 科技 发 展 的 引擎 ， 广 
泛 应 用 于 大 数据 研究 室 、 大 学 图 书馆 、 高 性 能 计算 中 心 、 研 究 项 目 和 研究 生 项 目 、 
个 人 实验 室 等 。 各 国 科 研 教育 机 构 已 将 大 数据 作为 科研 利器 ， 不 断 加 速 其 发 展 。 


2. 大 数据 成 为 科学 研究 的 关键 技术 
大 数据 已 从 学 术 研 究 的 边缘 逐渐 成 为 越 来 越 多 学 科研 究 的 核心 问题 和 关键 
技术 。 然 而 ， 大 数据 的 定义 仍然 存在 争议 。 尽 管 数据 的 规模 是 重要 因素 ， 但 大 小 
并 非 决 定性 特征 。 相 反 ， 大 数据 是 一 个 简洁 的 术语 ， 用 于 描述 以 下 方面 : 
C1) 利用 计算 能 力 和 新 技术 进步 的 研究 项 目 ; 
《2) 处 理 、 存 储 和 检索 数据 的 用 户 行为 ; 
(3) 整合 使 用 多 种 工具 对 研究 问题 进行 探索 的 任务 ; 
(4) 试图 结合 和 解释 大 规模 数据 集 所 实现 的 技术 。。 


3.“ 大 数据 ”落地 的 外 部 因素 

大 数据 研究 面临 着 许多 外 部 因素 的 挑战 ,这 些 挑战 包括 资源 需求 和 保障 ， 人 
力 、 资 金 和 政策 等 方面 是 许多 研究 型 大 学 所 面临 的 核心 问题 。 有 具体 而 言 : 
(1) 大 数据 研究 需要 庞大 的 计算 基础 设施 ， 尤 其 是 在 存储 、 共 享 和 分 析 大 规模 
数据 集 方面 ， 成 本 昂贵 。 
(2) 大 数据 研究 中 至 少 需要 一 个 实例 记录 ， 并 对 其 进行 访问 ， 这 需要 耗费 大 量 
精力 。 
(3) 实验 室 的 大 数据 研究 要 求 提升 大 学 电网 的 容量 ， 这 可 能 会 占用 其 他 部 门 的 
资源 。 


4.“ 大 数据 ”落地 的 内 部 因素 

大 数据 研究 的 内 部 因素 也 对 其 实施 产生 了 影响 ， 这 些 因素 包括 : 
(1) 大 数据 研究 需要 正式 和 非 正式 的 合作 , 涉及 到 博 硕 士 生 、 博 士 后 研究 人 员 、 
科研 人 员 、 教 授 、 教 职员 工 、 信 息 技 术 部 门 、 信 息 专 业 人 员 、 图 书馆 员 、 法 律 人 
员 、 学 术 建 设 委 员 会 以 及 其 他 同行 的 参与 。 
(2) 大 数据 研究 面临 着 隐藏 成 本 的 挑战 。 虽 然 大 数据 基础 设施 的 建设 或 购买 需 
要 相当 可 观 的 劳动 力 投入 , 但 人 们 常常 期 望 在 基础 设施 完成 之 后 会 产生 一 系列 的 
大 数据 研究 成 果 ， 并 实现 回收 成 本 的 效益 。 然 而 ， 实 际 情 况 可 能 并 非 如 此 ， 技 术 
的 投入 并 不 能 直接 带 来 研究 成 果 的 产 出 。 


综 上 所 述 ， 大 数据 已 成 为 科研 利器 ， 已 成 为 许多 学 科研 究 的 核心 问题 和 关键 
技术 ， 但 面临 着 资源 需求 和 保障 、 人 力 、 资 金 和 政策 等 外 部 因素 的 挑战 ， 以 及 正 


式 和 非 正 式 的 合作 、 隐 藏 成 本 等 内 部 因素 的 影响 。 


二 、 大 数据 实践 的 特点 难点 

造成 上 述 诸多 现象 的 主要 原因 ， 主 要 有 六 种 互相 交错 的 情况 ， 包括 : 学 科 之 
间 的 资源 和 争论、 复杂 数据 的 管理 难度 、 协 作 机 制 的 匮乏 、 分 享 知识 的 认识 不 清 、 
行为 规范 不 够 明确 、 越 有 效 的 短期 培训 造成 越 不 理解 根本 问题 等 。 


1. 大 数据 拉 大 学 科 和 跨 学 科 之 间 的 张力 

大 数据 研究 在 学 科 和 跨 学 科 之 间 存 在 着 张力 。 尽 管 大 数据 研究 是 一 个 跨 学 科 
的 事业 , 但 仍然 受到 学 科 组 织 机 构 的 限制 和 分 散 的 激励 机 制 的 影响 机构 的 定位 、 
资源 的 配置 、 人 员 的 设置 和 文化 结构 等 因素 导致 了 资金 分 配 的 不 平衡 现象 , 可 能 
影响 不 同学 科 和 实践 领域 参与 大 数据 研究 项 目的 意愿 和 能 

一 方面 ， 计 算 机 方法 的 广泛 应 用 ， 特 别 是 机 器 学 习 ， 推 动 了 数据 科学 的 成 熟 
发 展 ; 男 一 方面 ， 它 也 导致 了 科研 人 员 之 间 的 紧张 关系 ,并 引发 了 关于 学 科 观 点 
的 争议 。 

具体 而 言 ， 统 计 学 、 计 算 机 科学 、 数 学 和 系统 工程 等 学 科 对 于 特定 领域 的 数 
据 特 征 了 解 不 足 ， 难 以 与 具体 的 学 科 领 域 结合 。 在 实践 中 ,这些 不 同学 科 的 科研 
人 员 纷纷 建立 自己 的 数据 库 ， 称 之 为 大 数据 ， 尽 管 在 技术 选 型 、 建 模 思 路 和 科学 
发 现 等 方面 ， 与 真正 的 大 数据 还 存在 较 大 差距 。 


2. 大 数据 分 析 的 前 提 是 有 人 管理 复杂 数据 

在 当今 数据 丰富 的 时 代 ， 科 研 人 员 通 常 避 免 生成 新 的 数据 集 ， 而 是 尽 可 能 利 
用 现 有 数据 。 因 此 ， 获 取 可 能 有 用 的 数据 集 、 清 理 和 组 织 数据 的 工作 成 为 了 许多 
大 数据 项 目 中 最 繁重 的 一 部 分 。 

在 这 种 情况 下 ,管理 复杂 数据 的 人 扮演 着 至 关 重 要 的 角色 ， 他 们 需要 具备 数 
据 科 学 、 计 算 机 科学 、 统 计 学 和 领域 专业 知识 等 多 方面 的 能 力 。 这 些 人 通过 使 用 
高 级 工具 和 技术 ， 如 数据 挖 据 和 机 器 学 习 等 ,帮助 科研 人 员 从 数据 中 获取 有 价值 
的 信息 ， 从 而 推动 大 数据 分 析 的 发 展 。 

因此 ， 人 的 角色 仍然 是 大 数据 分 析 的 前 提 ， 尽 管 技 术 的 发 展 已 经 使 得 处 理 大 
规模 数据 变 得 更 加 容易 。 


3. 大 数据 应 用 依赖 协作 机 制 

大 数据 的 应 用 和 分 析 依 赖 于 广泛 的 协作 机 制 ， 涉 及 到 年 轻 学 生 、 教 职员 工 、 
同事 、 客 户 以 及 其 他 机 构 之 外 的 合作 伙伴 。 实 验 室 在 大 数据 应 用 和 分 析 的 研究 中 
扮演 着 核心 角色 ,学生 ( 包 括 本 科 生 和 研究 生 ) 在 实验 室 中 可 以 对 研究 过 程 做 出 
重要 页 献 。 科研 人 员 通 常 更 倾向 于 使 用 本 地 实验 室 的 计算 资源 , 而 不 是 依赖 于 集 
中 的 校园 存储 和 计算 选项 ， 包 括 云 计算 服务 。 

然而 ， 实 际 上 ， 许 多 学 校 倾向 于 投资 于 信息 化 建设 ， 并 要 求 科 研 人 员 使 用 这 
些 设施 ， 以 证 明 当 初 的 决策 的 正确 性 。 如 果 使 用 过 程 不 顺利 得 到 认可 ,进一步 的 
培训 或 优惠 价格 等 措施 将 被 采取 。 

这 种 情况 表明 ， 大 数据 应 用 的 成 功 离 不 开 各 方 之 间 的 协调 与 合作 ， 并 需要 持 
续 的 资源 支持 和 培训 。 


4. 大 数据 文化 的 本 质 是 分 享 知识 

尽管 同行 评审 的 论文 仍然 是 学 术 交 流 中 最 具 激 励 性 的 形式 , 但 科研 人 员 应 该 
广泛 致力 于 公开 分 享 研究 成 果 ， 包括 数据 和 代码 。 然而， 学 术 分 享 的 实践 超出 了 
仅 满足 FAIR 原则 (可 查找 性 、 可 访问 性 、 互 操作 性 和 可 重用 性 ) 、 开 放 获 取 的 、 
正式 共享 的 数据 知识 库 的 范畴 。 

存在 一 种 障碍 ， 即 科研 人 员 认 为 许多 数据 要 么 是 衍生 的 、 低 质量 的 ， 要 么 是 
从 各 种 来 源 收集 的 ,不 适合 公开 共享 。 这 种 观念 限制 了 大 数据 文化 的 本 质 ， 即 分 
享 知识 的 精神 。 

为 了 促进 大 数据 文化 的 发 展 ， 科 研 人 员 应 该 克服 这 些 障碍 ， 鼓 励 和 支持 数据 
的 广泛 共享 ， 以 促进 科学 研究 的 透明 度 和 可 重复 性 。 


5. 科 研 人 员 的 行为 规范 

尽管 国家 对 于 科研 诚信 和 学 术 道 德 的 建设 采取 了 许多 政策 和 公布 科研 失信 
案例 , 但 大 数据 研究 的 伦理 层面 仍然 存在 争议 。 科 研 人 员 在 确定 科研 行为 的 最 佳 
实践 方面 仍 存在 不 确定 性 。 

尽管 法 律 法 规 和 管理 规则 受到 重视 , 但 一 些 科研 人 员 担 心 这 些 规定 是 否 能 够 
很 好 地 适应 新 发 展 的 、 不 断 发 展 的 、 基 于 大 数据 的 研究 方法 。 

因此 ， 对 于 大 数据 研究 的 伦理 规范 的 制定 和 执行 需要 更 加 深入 的 讨论 和 研 
究 ， 以 确保 科研 行为 的 规范 性 和 合理 性 ， 并 适应 不 断 变化 的 科研 环境 。 


6. 许 多 大 数据 培训 的 盲点 

尽管 科研 人 员 倾 向 于 采用 非 正式 的 训练 方法 ， 如 互联 网 教程 或 基于 实践 案例 
的 大 数据 方法 等 ,这些 方法 对 于 解决 实际 问题 具有 一 定 的 效果 。 然 而 ,这 种 培训 
方法 存在 潜在 的 盲点 , 尤其 是 对 于 大 数据 领域 的 基础 知识 的 掌握 。 基 础 知识 的 欠 
缺 可 能 会 在 学 术 研究 中 导致 问题 。 因 此 ,为 了 有 效 地 利用 大 数据 技术 ,科研 人 员 
需要 接受 系统 性 的 大 数据 培训 ， 以 获得 必要 的 基础 知识 , 并 在 此 基础 上 进一步 党 
握 高 级 技术 和 方法 。 这 需要 教育 机 构 和 社会 各 界 共同 努力 , 提供 适合 不 同 层次 和 
需求 的 大 数据 培训 课程 和 资源 ， 以 培养 更 多 的 专业 人 才 。 


综 上 记述 ee 主要 受到 学 科 组 织 
机 构 的 限制 、 分 散 的 激励 机 制 以 及 资源 分 配 的 不 平衡 等 因素 的 影响 。 科 研 人 员 在 
re 关于 《用 色 他 们 需要 具备 多 方 
面 的 能 力 。 大 数据 的 应 用 和 分 析 依 赖 于 广泛 的 协作 机 制 , 需要 各 方 之 间 的 协调 与 
合作 。 科 研 人 员 应 该 广泛 致力 于 公开 分 享 研究 成 果 ， 以 促进 科学 研究 的 透明 度 和 
可 重复 性 。 尽管 国 家 对 于 科研 诚信 和 学 术 道 德 的 建设 采取 了 许多 政策 , 但 大 数据 
研究 的 伦理 层面 仍然 存在 争议 。 许 多 大 数据 培训 的 盲点 ， 科 研 人 员 需 要 接受 系统 
性 的 大 数据 培训 ， 以 获得 必要 的 基础 知识 , 并 在 此 基础 上 进一步 掌握 高 级 技术 和 
方法 。 


三 、 应 对 措施 

综 上 所 述 ， 本 文 提 出 以 下 七 点 建议 ， 则 在 推进 科研 院 所 和 高 等 学 校 ， 解 决 大 
数据 分 析 与 应 用 方面 的 落地 问题 , 包括 大 数据 服务 供应 商 在 内 ， 如 何在 短期 有 效 
和 长 期 深耕 之 间 ， 取 得 合 适 平衡 的 策 有 上 略 。 如 此 一 来 ， 可 以 促使 大 数据 如 何 落地 其 


至 成 为 助力 科研 、 助 力 产 业 、 助 力 就 业 的 有 效 手 段 ， 更 进一步 提升 我 国 大 数据 分 
析 与 应 用 的 推广 。 


1. 科 研 教育 机 构 应 采取 以 下 措施 来 推动 大 数据 研究 的 发 展 : 
(1) 定期 对 校园 大 数据 基础 设施 进行 系统 评估 ， 并 制定 协议 ， 绘 制 信息 技术 路 
线 图 ， 以 确保 数据 存储 需求 与 功能 的 匹配 。 
(2) 组 建 工 作 组 ， 包 括 图 书馆 、 高 性 能 计算 、 科 研 领 域 的 资源 (如 各 类 大 小 数 
据 中 心 ) 、 科 技 处 (或 业务 处 ) 以 及 与 其 他 单位 协调 的 支持 服务 ， 以 促进 协同 合 
作 和 资源 共享 。 
(3) 发 展 正式 的 数据 服务 和 资源 目录 ， 并 向 科研 人 员 分 发 ， 以 便 他 们 更 好 地 利 
用 和 管理 大 数据 资源 。 
(4) 评估 当前 科研 评价 与 科研 诚信 的 标准 ， 以 确保 其 能 够 充分 反映 大 数据 研究 
所 涉及 的 道德 和 隐私 问题 。 
(5) 寻找 机 会 ， 为 资源 不 足 的 领域 提供 支持 ， 包 括 人 文艺 术 学 科 、 定 性 的 社会 
科学 和 一 些 专业 学 科 ， 以 促进 这 些 领 域 在 大 数据 研究 方面 的 发 展 。 这 可 以 通过 开 
展 专门 的 培训 、 提 供 相 关 设 施 和 资源 等 方式 实现 。 


2. 为 促进 大 数据 的 信息 化 项 目的 发 展 ， 可 采取 以 下 措施 : 
《1) 增加 资助 青年 科研 人 员 的 项 目 ， 包 括 在 数据 科学 和 编程 方面 的 实践 、 推 广 
和 专门 研究 ， 以 培养 更 多 的 专业 人 才 ， 推 动 大 数据 研究 的 发 展 。 
(2) 奖励 对 大 数据 研究 做 出 贡献 的 工作 ， 以 激励 科研 人 员 积极 投 身 于 大 数据 领 
域 的 研究 和 创新 。 
(3) 或 励 资助 资金 获得 者 ,支持 那些 几乎 没有 机 会 获得 外 部 资助 的 领域 的 工作 ， 
以 促进 大 数据 研究 在 各 个 领域 的 普及 和 应 用 。 
C4) 与 其 他 机 构建 并 联盟 关系 ， 建 立 长 期 数据 存储 和 计算 能 力 ， 以 提高 数据 的 
安全 性 和 可 持续 性 ， 为 大 数据 研究 提供 更 好 的 基础 设施 支持 。 
《5) 为 科研 人 员 开 发 人 员 和 项 目 管理 培训 ， 以 提高 其 技术 和 管理 能 力 ， 同 时 表 
彩 那 些 本 质 上 是 大 数据 研究 协作 的 工作 , 促进 协作 与 交流 ,推动 大 数据 研究 的 发 
展 。 


3. 为 推动 大 数据 研究 的 发 展 ， 学 院 和 研究 部 门 可 以 采取 以 下 措施 : 
(1) 投资 于 进一步 嵌入 数据 科学 、 数 据 管 理 、 统 计 和 计算 流程 ， 为 科研 人 员 提 
供 相 关 专 业 知识 ， 以 协助 大 数据 研究 的 进行 。 
(2) 在 博士 项 目 中 ， 特 别 是 STEM 领域 的 博士 项 目 中 ， 应 寻求 整合 机 器 学 习 方 
法 、 数 据 科 学 和 编程 的 机 会 ， 并 至 少将 这 些 内 容纳 入 博士 课程 中 。 
(3) 研究 部 门 应 考虑 培养 人 才 的 素质 教育 课程 ， 使 研究 人 员 至 少 了 解 大 数据 研 
完 并 能 为 之 做 出 贡献 。 
(4) 修订 晋升 和 任期 标准 ， 以 确认 组 织 恨 好 的 数据 和 代码 共享 是 一 项 重要 的 研 
完成 果 ， 从 而 鼓励 科研 人 员 在 数据 和 代码 的 管理 与 共享 方面 做 出 努力 。 
(5) 培养 团队 成 员 在 元 数据 创建 、 数 据 管理 和 数据 管理 方面 的 专业 知识 ， 以 及 
数据 分 析 和 数据 可 视 化 的 能 力 ， 以 提高 团队 在 大 数据 研究 中 的 综合 能 力 。。 


4. 为 了 促进 大 数据 研究 的 发 展 ， 图 书馆 可 以 采取 以 下 措施 : 
(1) 创建 和 更 新 特定 科研 社区 感 兴趣 的 数据 集 指南 ， 以 帮助 研究 人 员 快 速 找到 


其 需要 的 数据 集资 源 。 

(2) 为 购买 订阅 数据 集 分 配额 外 资源 ， 与 其 他 学 术 图 书馆 合作 ， 以 降低 成 本 ， 
为 科研 人 员 提 供 更 多 的 数据 资源 。 

(3) 增加 现 有 数据 研究 管理 服务 的 推广 活动 ， 这 些 服务 是 为 科研 人 员 所 作 ， 需 
求 量 很 大 。 通 过 加 强 宣传 和 推广 ， 可 以 让 更 多 的 科研 人 员 了 解 到 这 些 服务 。 
(4) 在 可 行 的 情况 下 ， 扩 大 一 对 一 咨询 服务 或 提供 按 需 研讨 会 ， 根 据 特定 研究 
群体 的 需求 量 身 定制 ， 以 更 好 地 满足 科研 人 员 对 数据 研究 管理 的 需求 。 

(5) 提高 机 构 知 识 库 的 存储 能 力 ， 并 将 其 推 向 科研 人 员 。 通 过 提高 机 构 知 识 库 
的 存储 能 力 , 可 以 更 好 地 存储 和 管理 科研 人 员 的 数据 资源 , 提高 数据 的 可 访问 性 
和 可 重复 性 。 


5. 为 推动 大 数据 研究 的 发 展 ， 科 研 资助 机 构 可 以 采取 以 下 措施 : 
(1) 评估 受 资助 者 当前 是 否 需 要 法 律 和 道德 指导 ， 以 满足 与 大 数据 研究 相关 的 
新 兴 道 德 和 隐私 问题 。 这 将 确保 受 资助 者 在 进行 大 数据 研究 时 能 够 充分 考虑 法 律 
和 道德 问题 ， 保 护 个 人 隐私 和 数据 安全 。 
(2) 制定 支持 与 考核 机 制 ， 为 长 期 的 大 数据 基础 设施 的 维护 成 本 提供 资金 。 这 
将 确保 大 数据 基础 设施 的 可 持续 发 展 ， 并 提供 资金 支持 来 确保 其 正常 运行 和 维 
护 。 
(3) 继续 支持 数据 知识 库 的 稳健 发 展 。 资 助 机 构 可 以 提供 资金 和 技术 支持 ， 以 
帮助 建立 和 维护 数据 知识 库 ， 为 科研 人 员 提 供 可 靠 的 数据 资源 。 
评估 现 有 的 代码 和 数据 共享 法 规 在 多 大 程度 上 为 科研 人 员 在 处 理 专 有 的 、 机 密 
的 、 敏 感 的 、 低 质量 的 数据 时 提供 正确 的 指导 。 这 将 有 助 于 确保 (4) 科研 人 员 
在 共享 数据 和 代码 时 能 够 遵守 相关 法 规 ， 同 时 保护 数据 的 安全 和 质量 。 
(5) 在 科研 项 目 计划 评估 中 ， 制 定 有 组 织 的 数据 和 代码 共享 的 评估 指标 、 指 南 
和 指导 。 这 将 帮助 科研 人 员 在 项 目 计 划 中 考虑 数据 和 代码 共享 的 重要 性 , 并 提供 
指导 来 确保 数据 和 代码 的 有 效 共享 和 可 重复 性 。 


6. 为 促进 学 术 社 区 对 大 数据 研究 的 支持 和 发 展 ， 以 下 措施 可 以 考虑 : 
(1) 阐明 基于 学 科 的 研究 伦理 观点 。 学 术 社 区 应 明确 各 学 科 领 域 对 于 大 数据 研 
究 伦 理 的 观点 和 要 求 , 以 确保 研究 人 员 在 进行 大 数据 研究 时 遵循 适当 的 伦理 原则 
和 规范 。 
(2) 在 学 术 会 议和 出 版 物 上 ， 鼓 励 对 于 开放 科学 的 价值 进行 详细 讨论 。 学 术 社 
区 应 通过 会 议和 出 版 物 提 供 平台 , 促进 研究 人 员 对 于 开放 科学 的 价值 进行 深入 探 
讨 和 交流 ， 推 动 共享 数据 和 代码 的 实践 。 
C3) 面向 科研 人 员 、 资 助 机 构 、 出 版 团体 以 及 其 他 利益 相关 者 ， 阐 明 数 据 人 处理 
政策 和 存储 标准 。 学 术 社区 应 制定 明确 的 数据 处 理 政策 和 存储 标准 , 向 科研 人 员 、 
资助 机 构 、 出 版 团体 等 相关 方 提供 指导 ， 以 确保 数据 的 安全 、 可 访问 性 和 可 重复 
性 。 
《4) 鼓励 各 学 术 部 门 在 晋升 和 聘任 标准 上 ， 制 定 有 组 织 的 数据 和 代码 共享 的 评 
佑 指标 。 学 术 部 门 应 考虑 将 数据 和 代码 共享 作为 评估 科研 人 员 晋 升 和 聘任 的 标准 
之 一 ， 吾 励 科研 人 员 积 极 参与 数据 和 代码 的 共享 和 开放 科学 实践 。 
(5) 为 科研 人 员 举 办 论坛 、 研 讨 会 、 专 题 讨论 会 等 活动 ， 提 供 跨 学 科 共 享 和 数 
据 密集 型 研究 的 机 会 。 学 术 社 区 应 组 织 各 种 形式 的 活动 ,为 科研 人 员 提 供 交 流 和 


合作 的 平台 ， 促 进 跨 学 科 的 共享 和 数据 密集 型 研究 的 发 展 。 


7. 为 提高 大 数据 服务 供应 商 的 服务 质量 和 推动 大 数据 研究 的 发 展 ， 以 下 措施 
可 以 考虑 : 
(1) 增强 订阅 数据 库 的 元 数据 。 大 数据 服务 供应 商 应 增强 订阅 数据 库 的 元 数据 ， 
以 提高 数据 的 可 搜索 性 和 可 发 现 性 ， 促 进 数据 的 共享 和 重复 利用 。 
(2) 与 图 书馆 协调 ， 提 供 数据 集 以 及 读者 使 用 许可 。 大 数据 服务 供应 商 应 与 图 
书馆 协调 , 制定 数据 集 的 供应 和 使 用 许可 协议 ,以 确保 数据 的 合法 使 用 和 保护 数 
据 提 供 商 的 权益 。 
(3) 提供 数据 封包 及 其 使 用 许可 证 ， 促 使 数据 集 可 供 科研 院 所 和 研究 型 大 学 进 
行 访问 获取 ， 并 且 价 格 合 理 。 大 数据 服务 供应 商 应 提供 数据 封包 和 使 用 许可 证 ， 
以 便 科研 院 所 和 研究 型 大 学 可 以 访问 和 获取 数据 集 , 并 确保 数据 的 价格 合理 和 可 
负担 。 
《4) 科研 社区 与 科研 院 所 一 同 协商 讨论 一 个 云 存 储 选 项 的 固定 价格 。 大 数据 服 
务 供应 商 应 与 科研 社区 和 科研 院 所 协商 讨论 一 个 云 存储 选项 的 固定 价格 , 以 便 科 
研 人 员 可 以 更 便捷 地 存储 和 共享 数据 。 
(5) 提供 个 性 化 咨询 服务 , 协助 科研 人 员 进 行 特定 领域 的 编码 任务 和 数据 管理 。 
大 数据 服务 供应 商 应 提供 个 性 化 咨询 服务 , 帮助 科研 人 员 解 决 特定 领域 的 编码 任 
务 和 数据 管理 问题 ， 提 高 数据 的 质量 和 可 重复 性 。 


四 、 结 语 

当前 大 数据 分 析 与 应 用 的 热点 问题 ， 就 是 “大 数据 ”怎么 落地 ， 对 此 有 五 个 
难点 ,分 别 是 : 计算 基础 设施 、 数 据 管理 实践 、 科 研 人 员 的 偏好 、 各 种 合作 的 机 
会 以 及 被 技术 所 掩盖 的 成 本 。 造 成 这 些 现象 的 主要 原因 ， 包括: 学 科 之 间 的 资源 
争论 、 复 杂 数 据 的 管理 难度 、 协 作 机 制 的 匮乏 、 分 享 知 识 的 认识 不 清 、 行 为 规范 
不 够 明确 、 越 有 效 的 短期 培训 造成 越 不 理解 根本 问题 等 的 六 个 原因 。 故 此 ， 本 文 
针对 科研 教育 机 构 、 科 研 资助 机 构 、 科 学 学 会 、 学 院 以 及 研究 部 门 、 信息 化 项 目 、 
图 书馆 、 大 数据 服务 供应 商 等 ,各 自 提 出 五 项 可 操作 的 实践 建议 ， 以 期 共同 解决 
这 些 热 点 问题 。 抛 砖 引 玉 ， 是 以 为 文 。 
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